Telegram Group »
United States »
Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение » Telegram Webview
⏰ Последние 2 дня скидки на курс «AI-агенты для DS-специалистов»
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A
Пока большинство дата-сайентистов строят модели и делают аналитику, рынок уже требует специалистов, которые создают автономные системы на базе ИИ-агентов.
Для этого мы подготовили специальный курс и собрали кучу дополнительного контента, который поможет погрузиться в тему еще глубже. Но чтобы получить все плюшки, успевайте до 1 июня.
🎁 Что вы получите при оплате курса до 1 июня:
— Промокод PROGLIBAIна 10 000 ₽ на курс, чтобы изучать AI-агентов еще выгоднее
— Эксклюзивный лонгрид по API и ML от Proglib
💡Что разберем на курсе «AI-агенты для DS-специалистов»:
— Реализацию памяти в цепочках langchain
— Полный пайплайн RAG-системы с оценкой качества
— Основы мультиагентных систем (MAS)
— Протокол MCP и фреймворк FastMCP
Промокод также действует на курсы «Математика для Data Science» и «Алгоритмы и структуры данных».
👉 Успейте до 1 июня: https://clc.to/Cttu7A
Когда ты учил всё подряд, но на собеседовании спросили только про Attention. 🎯
Библиотека дата-сайентиста #развлекалово
Библиотека дата-сайентиста #развлекалово
🧠 Загадка для AI/DS-гиков
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик
🤓 Давайте проверим вашу интуицию и знание терминов.
Подсказка: термин связан с искусственным интеллектом или data science.
Самые догадливые — пишите ответ в комментариях 👇
Не забудьте спрятать его под спойлер, чтобы не подсказывать другим.
Библиотека дата-сайентиста #междусобойчик
🚨 Что на самом деле происходит с увольнениями в ИТ
Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!
🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы
Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.
👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg
Каждый день в чатах разработчиков появляются сообщения «ищу работу», «команду сократили», «проект закрыли». Но никто не говорит о причинах и масштабах катастрофы. Мы запустили большое исследование, чтобы раскрыть правду!
🎯 Что мы выясним:
→ Реальные причины увольнений
→ Сколько времени нужно на поиск работы
→ Самые безумные истории смены работы
Понимая реальную ситуацию, мы сможем принимать взвешенные решения о карьере и не попасться на удочку HR-сказок.
👉 Пройдите опрос за 3 минуты и помогите всему сообществу: https://clc.to/yJ5krg
🔥 Модели, релизы и технологии:
— BAGEL от ByteDance — мультимодальная open-source модель: текст, изображение и всё вместе
— Mistral Agents API — новый API для сборки AI-агентов: просто, мощно, гибко
— FlowTSE — извлекает голос нужного спикера из шумной записи с несколькими говорящими
🧠 Статьи, исследования и лучшие практики:
— Мэтчинг по-научному — алгоритм подбора работодателей и кандидатов от Авито
— Python и древние фрески — цифровая реставрация с помощью ML
— Новая маршрутизация от Яндекса — алгоритмы для пешеходов и велосипедистов
— Редактор от Сбера — точечное редактирование изображений словами
📘 Обучение и развитие:
— Установка драйверов NVIDIA — полезная шпаргалка для ML-серверов
— CV/ML-проект с нуля до продакшена — практическое руководство
— Yambda от Яндекса — крупнейший датасет для развития рекомендательных систем
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Senior Data Scientist (classic ML), удалёнка
Senior Data Engineer, удалёнка
Quantitative Researcher — от 5 000 до 10 000 $, офис (Армения, ОАЭ, Кипр)
Системный аналитик (Big Data), удалёнка
Аналитик GPT-моделей (Алиса) — от 300 000 до 490 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Narwhals: универсальные функции для любых DataFrame
С Narwhals можно писать функции, которые работают с разными библиотеками данных — pandas, polars, DuckDB, PySpark и даже PyArrow, без лишних зависимостей.
✅ Пример: группируем данные по месяцам и считаем среднюю цену
Работает и с pandas:
И с Polars:
👌 Подробные примеры можно посмотреть в статье: https://clc.to/RytBgA
Библиотека дата-сайентиста #буст
С Narwhals можно писать функции, которые работают с разными библиотеками данных — pandas, polars, DuckDB, PySpark и даже PyArrow, без лишних зависимостей.
import narwhals as nw
from narwhals.typing import IntoFrameT
def agnostic_function(df_native: IntoFrameT, date_column: str, price_column: str) -> IntoFrameT:
return (
nw.from_native(df_native)
.group_by(nw.col(date_column).dt.truncate("1mo"))
.agg(nw.col(price_column).mean())
.sort(date_column)
.to_native()
)
Работает и с pandas:
import pandas as pd
from datetime import datetime
data = {
"date": [datetime(2020, 1, 1), datetime(2020, 1, 8), datetime(2020, 2, 3)],
"price": [1, 4, 3],
}
print(agnostic_function(pd.DataFrame(data), "date", "price"))
И с Polars:
import polars as pl
print(agnostic_function(pl.DataFrame(data), "date", "price"))
👌 Подробные примеры можно посмотреть в статье: https://clc.to/RytBgA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Бэкенд под ML-проекты: что может пойти не так
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
✔️ различия между offline и online логикой,
✔️ проседание по latency,
✔️ неконсистентные признаки,
✔️ неустойчивые A/B-эксперименты,
✔️ и многое другое.
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Команда дня: строгая типизация NumPy массивов
Обычно мы пишем так:
🙅♂️ Но это не защищает от ошибок — форма и тип данных не проверяются.
✔️ Вместо этого — используем обобщённые типы:
Теперь mypy и pyright ловят ошибки до запуска:
🙅♂️ неверная размерность,
🙅♂️ неподходящий dtype.
👉 Хотите проверку ещё и в рантайме?
✔️ Используйте
При передаче неверного массива — будет чёткое сообщение об ошибке.
Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba
Примеры:
—
—
—
Библиотека дата-сайентиста #буст
Обычно мы пишем так:
def f(x: np.ndarray): ...
from numpy import ndarray, dtype, uint8, bool_, float64
def process(
x: ndarray[tuple[int], dtype[bool_]],
y: ndarray[tuple[int, int, int], dtype[uint8]],
) -> ndarray[tuple[int], dtype[float64]]:
...
Теперь mypy и pyright ловят ошибки до запуска:
static_frame
:import static_frame as sf
@sf.CallGuard.check
def f(x: ndarray[tuple[int], dtype[np.number]]): ...
При передаче неверного массива — будет чёткое сообщение об ошибке.
Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba
Примеры:
—
ndarray[tuple[int], dtype[bool_]]
— 1D массив булей—
ndarray[tuple[int, int], dtype[np.str_]]
— 2D массив строк—
ndarray[tuple[int], dtype[np.number]]
— массив любых чиселБиблиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Работаете с табличными данными?
Эти простые советы сэкономят вам время, память и нервы:
Быстрее, короче, читаемее:
# Вместо apply
df["log"] = np.log(df["x"])
Избавьтесь от
.iterrows()
— векторные операции эффективнее:df["sum"] = df["a"] + df["b"]
Существенно уменьшает потребление памяти:
df["country"] = df["country"].astype("category")
Не тратьте ресурсы на лишние строки и столбцы:
pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)
Сначала собираем — потом записываем:
df.to_csv("result.csv", index=False)
Проверяйте «тяжёлые» столбцы
df.memory_usage(deep=True)
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM